開発経済論: データ視覚化

聖心女子大学国際交流学科
2024年秋学期

アジア経済研究所 伊藤成朗

はじめに

  • 伝えたいことを一発で伝える
  • コレラ発症件数のドット地図
  • 仮説: 水・飛沫媒介の感染
  • メカニズム: ウィルス汚染された水→ポンプ→感染蔓延
    • The pump: Cambridge Street & Broad Street
    • 最近接ポンプ=The pump
    • Placebo test: Brewery
Map of the book “On the Mode of Communication of Cholera” by John Snow, originally published in 1854 by C.F. Cheffins, Lith, Southhampton Buildings, London, England.

2変数の関係

Constructed using World Development Indicators
  • 散布図scatter plot
  • 意図: 横軸 ⇒ 縦軸

2変数の関係

x y
x y1 y2 y3 y4
10 8.04 9.14 7.46 6.58
8 6.95 8.14 6.77 5.76
13 7.58 8.74 12.74 7.71
9 8.81 8.77 7.11 8.84
11 8.33 9.26 7.81 8.47
14 9.96 8.10 8.84 7.04
6 7.24 6.13 6.08 5.25
4 4.26 3.10 5.39 12.50
12 10.84 9.13 8.15 5.56
7 4.82 7.26 6.42 7.91
5 5.68 4.74 5.73 6.89
出所: Anscombe’s quartet

Anscombeデータ: 各yの平均値=7.5、xと各yの相関係数=.816、回帰線\(y=3+.5x\)

  • 記述統計と回帰分析だけだと違いを見失う

1変数の分布比較(連続変数continuous variables)

  • 平均値が同じ3分布
  • 分散は0.96, 9.94, 9.95で、後2者は判別不能
  • 歪度skewnessは-0.06, -0.37, -0.06で、後2者は判別可能
  • 描くと直感的に把握できる

1変数の分布比較(離散項目変数categorical variables)

  • Tree map
    • 数量を面積で表示
  • 棒グラフとして品目数が多すぎるときに有効
    • 限られた空間を効率的に使うため
  • 視認性は低い
  • 疾病種類が多いこと、代表的な疾病が分かる
  • それ以外の情報は存在するという以上の内容がない
Constructed using Global Burden of Disease Collaborative Network. Global Burden of Disease Study 2021 (GBD 2021) Cause-Specific Mortality 1990-2021. IHME, 2024.
Animated icons by Lordicon.com

1変数の分布比較

High income, 2021

High income, 2021

High income, 1990

High income, 1990

South Asia, 2021

South Asia, 2021

South Asia, 1990

South Asia, 1990

Sub-Saharan Africa, 2021

Sub-Saharan Africa, 2021

Sub-Saharan Africa, 1990

Sub-Saharan Africa, 1990

経緯の視覚化

ベンジャミン・モリスによるステフ・カリーのシュート(Morris 2015)

  • 複数年次の散布図
  • 両軸は数値
  • 時間の変化=同じ個人の点を線でつないで表現
  • 年を追うごとに、シュート数が増えながら成功率も増えている
    • 他の有名選手は右下がり: 打ち過ぎると成功率が下がる←疲れ、守備
  • Curryなどが台頭してから、NBAゲームの攻撃はパス&3ポインターが主流に
Kieth Allen
Animated icons by Lordicon.com

データ視覚化の目的=情報の伝達

  • データをそのまま見ていても何が何やら分からない
  • データから傾向(変数間の関係、メッセージ)を見出すのが最初
  • ⭕ 伝えたい傾向がもっとも良く伝わるように視覚化の方法を選ぶ
  • ❌ 受取手が思考したり、何度も視線を動かしたり、計算をしなくてはいけない視覚化
  • ❌ 伝えたいメッセージにこだわるあまり、データと矛盾する視覚化の方法を選ぶ
  • ❌ ❌ ❌ データ改ざんはもっての外

満たすべき条件[Tufte (1983), p.51; RSS]

直感的clear, intuitive
メッセージが明快
正確precise
情報が歪められていない
効率的efficient
ノイズが最小限

参考文献

Edward Tufte (独創的、読み物的、チャートジャンクの指摘、多彩な例)

William Cleveland (学術的、視認性)

参考文献

Claus O. Wilke (分類的、教科書的、コード)

無料閲覧

Kieran Healy (マニュアル的、ggplot2, dplyr多用、補助教材あり)

無料閲覧

視覚化失敗の費用

極端な例です

NASAスペースシャトル・チャレンジャー打ち上げ分解事故(1986年)

  • 乗員7名全員死亡
  • 原因:
    • 燃料タンク接続部分が打ち上げ時加圧で開いたこと
    • 接続部分のゴム製Oリングが打ち上げ当日の低温で硬直化して密閉しなかったこと

高温の燃料漏れ→燃料タンクが燃焼破損→ロケット・ブースター接続部分を破壊→ブースターが回転→異常な方向への空圧を発生→シャトル機体が分解→乗組員キャビンが空中に放出→高度20kmから海面に激突

  • 打ち上げ前夜、エンジンを製作したMorton Thiokol社の技術者は天気予報の低温を理由に打ち上げに反対
  • MT社技術者が反対のために準備した資料(13枚):
    • 最も大事な気温 vs. Oリング破損の関係提示: 無し
    • SRM15(SRM: MT社内で使用された打ち上げ番号、気温11.6度)とSRM22(気温23.9度)でのOリング破損情報提示
    • Oリング破損があった7件の破損状況の表(気温情報なし)
    • 試作段階エンジンテスト4件とSRM15とSRM22の気温一覧表(その他12件の打ち上げ情報なし、Oリング破損情報なし)
    • 「11.6度以上が打ち上げの条件」という結論

主張は明快だが根拠が不明快

NASA幹部らは度重なる打ち上げ延期を気にしており、早期に打ち上げたいと考えていた

Manager of the Solid Rocket Booster project, George Hardy told Thiokol:

I am appalled. I am appalled by your recommendation.

Lawrence Mulloy, George C. Marshall Space Flight Center’s Manager for the SRB project, said:

My God, Thiokol, when do you want me to launch—next April?

NASA幹部たちは打ち上げ延期に反対し、危険である証拠を要求

最終的にMT社幹部も打ち上げに賛同

  • お薦め: NetflixドキュメンタリーChallenger (監督Daniel Junge, Steven Leckart), Episode 3, 00:18:00-00:27:00に技術者反対から打ち上げ決定までの詳細あり

MT社技術者が用意すべきだった図(Tufte 2006, 45)

  • 損傷指数(damage index)は損傷の内容を考慮した総合損傷度合い、事故調査委員会資料で計算された
  • 複数の損傷内容を1つの数字にまとめると、結果を見やすくする
  • 気温 ⇒ 損傷の程度、という因果関係を見るという目的→損傷無しの事例(右下部分)も載せる
  • 今回の打ち上げの参考にする→今回の気温も含める

事故調査委員会報告書(1986年)でも要領の悪い図示が続いた

証拠提示のための図として悪い点(Tufte 2006, 47–48)

凡例なし
マークの意味が分からない
データ・インク比率が小さい
data-ink ratio=インク量のうちデータに使われる比率、が多いほど単純明快な図になりやすい。できる限り多くすべき。装飾などのチャート・ジャンク(chart junk、データ以外のゴミ情報)を無くすべき。
明快な関係提示なし
因果関係(\(p\Rightarrow q\))ならば\(p, q\)が際立って表示されるべき。図で因果関係・相関関係が明快でない=分析者の理解も明快でない(=自分が分かっていないことを説明している)。因果関係に沿わない順序(気温と破損の因果関係で日付に順序としての意味はない)をやめて気温順に配列すべき。

正式に気温と破損の因果関係を示すならば、気温を変化させながら、ゴムが硬直化する(ために高温ガスを遮断できない)か観察する実験が必要

氷水とゴムを使った実験

事故調委員リチャード・ファインマンの結びの言葉

技術を結実させるためには、広報よりも現実を優先させなければならない、自然は騙すことができないから。For a successful technology, reality must take precedence over public relations, for Nature cannot be fooled.

  • 効果的にデータを視覚化できていれば、説得力を以て危険性を示すことができた
  • 解決策: 気温が高い時期まで打ち上げ延期
  • 打ち上げを決めた人たち: 自分が乗組員でも同じ判断をするか

NASAの目標重視、安全性軽視は変わったのか

スペースシャトル・コロンビア(2003年)

  • 打ち上げ時に断熱材破損、破片→機体に衝突
  • 映像によりNASAはこのことに気付き、12日後の大気圏再突入までに危険を検討した
  • 燃料タンクのspray-on form insulation吹き付け式断熱材
  • 衝突箇所: タイル vs. ROCという柔らかい部分
  • 衝突角度: 緩 vs. 急
  • ボーイング社の専門家が3つの報告書を提出、説明
  • 「結論: タイル複数枚喪失が基準値以上の熱を引き起こさなければ、損傷しても安全に帰還(複数枚の熱分析は計算中)」

スペースシャトル・コロンビア大気圏再突入爆発事故(2003年)

コロンビア事故: 事故前にすべきだったこと

  • ボーイング社の報告書: 仮説が明示されず、タイルやRCCの実験データを引用するのみ、体積の違いも考慮していない
  • ボーイング社が用意すべきだった図: 素材別パネル、実際の体積をもとにした角度 vs. 損傷(+損傷上限)

チャレンジャー事故: 事故前にすべきだったこと

仮説は何かを考える

低気温 ⇒ ゴムの密閉性を喪失

⇒ 高温ガスがブースター接続部分から漏洩して引火、タンク破損、シャトル分解

仮説の前半[低気温 ⇒ ゴムの密閉性を喪失]を示すだけで十分

  • 仮説の検証を目的にデータを視覚化する
  • 見ている人に暗算や思考実験を強いない直截な比較
  • 実験で示すことが理想だが、「時間がない」ならば過去のデータを示す
    • Tufteの散布図
  • もちろん、因果関係ではないが、相関関係でも危険が示されれば延期するのに十分な判断材料

1変数の把握

  • 棒グラフ: 絶対量を長さで示す
  • だから、0から表示する。\(\approx\)で軸を削ってはいけない。長さを削っては駄目だから。
  • 差が少ない比較なので、(横)棒だと塗りつぶしの棒中心に視線が行く。ドット図の方が右端に視線が行きやすい。
  • 縦棒はグループのラベルが長いと隙間を要するのでスペースを使うし、離れているために比較が難しい。左図:右図を1.5:1にしないと左図のラベルが重なり読めなくなる。
  • 横棒にすると解決する。
  • でも、時間変化は縦棒の方が把握しやすい。
  • ラベルを小さくする、縦書きにする、略記する方が良いかも。

円グラフを使ってはいけない

専門家の意見

  • 円グラフpie chart: 絶対量を角度で表す
  • 人間の目は角度を比べるのは不得意、比較には不適
  • 3次元円グラフ: さらに不適、斜め上から見ると角度も分からない
  • 絶対量比較だったら棒グラフ、差比較だったら点グラフ、変化比較だったら折れ線グラフを使えばいい

  • グラフの下部分をカットして上部分を引き延ばす
  • 差が強調される
  • 差を不当に強調してデータから得られるメッセージを変えようとしている
  • 下部分をカットしたいなら折れ線グラフや点グラフを使えばいい
  • 差を不当に強調したい理由、データから何を見せたいかを考えるべき

  • ドット図: グループ間の差を比較
  • グラフの下部分をカットして上部分を引き延ばす
  • 差を不当に強調していない。点グラフは各点の位置と相対距離を伝える。
  • 各点を直線で結ばない。グループAはグループBに変化しないので、各点をつながない方が良い
  • グループ数に比して差が小さい方が傾向を把握しやすい。数(横軸)の方向に間隔が空きすぎないように図の縮尺を調整する。
  • 転置しても良いが、横軸 ⇒ 縦軸という因果関係の誤解を防ぐ必要←横軸はカテゴリ

  • ヒートマップ: グループ間の差を色彩で比較
  • 上下限への距離を色で表現
  • 色彩変化で全体的傾向を読む
  • 軸の順番は色の濃淡が連続的に出るように選ぶと意図が伝わりやすい
  • 傾向を把握してから並べ方を決める
  • 国数が多過ぎ
  • グループ(cross sectional units)数が多いと、まとめる、標本抽出するなどしない限り、視覚化に向かないこともある。統計学を使ってデータ削減すべき

  • Excess female life expectancy: 女性余命-男性余命
  • 2019年のFLE値の大きい順から5カ国目ごとにサンプル。
  • FLEとEFLEの時系列を組み合わせることで見えることもある。
  • FLEは似ているが、クウェイトはEFLEが低い。クウェイトは所得が高いのにFLEが低い。

色覚異常があっても判読できる色彩

  • 左はviridisライブラリ、右は色覚異常に対応するOkabe-Itoパレットから指定
  • Approximately 8% of males and 0.5% of females suffer from some sort of color-vision deficiency, and deuteranomaly is the most common form whereas tritanomaly is relatively rare (Wilke 2019, sec. 19.3)
  • Deuteranomaly: Red–green color-vision deficiency
  • Tritanomaly: Blue–yellow color-vision deficiency. .01%

  • 各時点で絶対量グループ間比較
  • 全体的傾向のグループ間比較
  • 色を変える必要は無い(比較のために色彩の違いを残した)
  • こちらの方が見る人に思考を要求しない

  • Stacked bar plot: 全体の高さとグループ内訳を示す
  • 行ごとの縮尺共通: グループごとの高さを示す
  • 色を変える必要は無い
  • ここまでデータが長く変動が激しいと内訳を比較するのは難しい
  • 最下層に来るデータによって印象が変わる

  • Stacked bar plot: 全体の高さとグループ内訳を示す
  • 行ごとの縮尺共通: グループごとの高さを示す
  • 色を変える必要は無い
  • ここまでデータが長く変動が激しいと内訳を比較するのは難しい
  • 最下層に来るデータによって印象が変わる
  • 底が揃っているとピークを見つけやすい

  • 散布図scatter plot: 全体的な分布を示す、45度線で増減を示す
  • Slopegraph: 変化の程度(傾斜)を示す、2時点以上も可

  • Choropleth: 地図上に分布を示す
  • 境界線で変化することを強調
  • 色彩を単調に変化させるべき
  • 境界区分が粗すぎると傾向を誤って示す可能性がある
  • 見る人が地図を熟知していると前提

複数変数の関係把握

Constructed using World Development Indicators
  • 2つの散布図を1つに
  • 変化の散布図
  • 3変数(+年)の関係を表示
  • 意図: 横軸 ⇒ 縦軸 & 経年変化
  • 年: 1990と2020には経年数という意味があるので同じ図に描く意味がある
  • 意図せざる視覚効果: 低所得国は縦方向、高所得国は横方向の変化が多い

Constructed using World Development Indicators
  • 回帰線が下にシフトしただけに見える
  • 1990年に比べて2020年の保健指標は低所得国がより改善した

Constructed using World Development Indicators
  • 回帰線が下にシフトしただけではない
  • 低所得国が下に移動し、高所得国が右に移動した結果の回帰線の下方シフト
  • 低所得国での保健サービスが整備されたが、所得はあまり増えなかった
  • 高所得国では保健サービスはすでに整備されていて改善度合いは少ないが、所得が増えた

Constructed using World Development Indicators

長所

  • 共通の軸
  • 3種類の変数(初等、中等、高等)を比較可能

短所

  • ごちゃごちゃして見にくい
  • もはや見ているのは回帰線だけ
    • ならば、回帰線だけでいい
    • そうするのは本末転倒

パネル化の目的: 複数グループ間比較

Royal Statistcal Society

パネル化の方向:

縦 vs. 横

共通にする軸:

横軸 vs. 縦軸

比較したい軸:

横軸 vs. 縦軸

  • 体重グループ: 離散的な区分なので同じ図に描くのではなく、パネル化が望ましい

縦: 濃度、横: 時間 → 縦: 時間、横: 濃度に変更

Royal Statistcal Society

横軸: 濃度

縦軸: 時間

縦方向パネル: 横軸変数の比較

横方向パネル: 縦軸変数の比較

やってはいけない視覚化

チェック項目と推奨する原則(Tufte 2001)

嘘比率lie factor
図での大きさ/数値の大きさ。数値を図で誇張・矮小化している比率。1でなければならない。
データ・インク比率data-ink ratio
全ての線や模様のなかでデータの占める比率。合理的範囲で高めるべし。
非データ・インク比率nondata-ink ratio
全ての線や模様のなかでデータ以外の占める比率。1-データ・インク比率。チャート・ジャンク。合理的範囲で減らすべし。
冗長なデータ・インクredundant data-ink ratio
全ての線や模様で同じ情報が重複している比率。減らすべし。
デザイン変更design variation
一部だけデザインを変えて誇張・矮小化すること。やってはいけない。
図の次元graphical dimensions
面積(2)、体積(3)。データの次元に合わせるべし。
データ密度data density
面積当たりデータ表示の比率。図を縮小することで多くの図を詰め込むべし。

DataVisualisation.pdf

References

Morris, Benjamin. 2015. “Stephen Curry Is the Revolution.” FiveThirtyEight. https://fivethirtyeight.com/features/stephen-curry-is-the-revolution/.
Tufte, Edward R. 1983. The Visual Display of Quantitative Information. Graphics Press (Cheshire, CT).
———. 2001. The Visual Display of Quantitative Information. 2nd ed. Graphics Press (Cheshire, CT).
———. 2006. Beautiful Evidence. Graphics Press (Cheshire, CT).
Wilke, Claus O. 2019. Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures. O’Reilly Media.